医疗信息化已经从IT(信息技术)进入DT(数据技术)的时代,医疗数据价值日益凸显,“医疗大数据平台”应运而生。不过,作为一个新生事物,医疗大数据平台的外延与内涵尚未得到清晰定义,又经常与集成平台、临床数据中心(Clinical Data Repository, CDR)相伴出现,且有部分功能重叠。因此,对于许多医院用户而言,很容易对这三者的概念产生疑惑、发生混淆。上海柯林布瑞信息技术有限公司联合创始人秦晓宏就曾遇到过医院信息科的提问:“我们医院已经建设了集成平台与CDR,还需要建设大数据平台吗?”这是一个很有代表性的提问。秦晓宏认为,对这个问题进行深入剖析与解答,有助于厘清认识、准确把握,推动医院大数据平台建在实处、用在实处。上海柯林布瑞信息技术有限公司联合创始人秦晓宏传统方式建设的CDR只是医疗大数据的“冰山一角”“早期谈到大数据平台时,我们经常会将其与集成平台、数据中心‘揉’在一起谈论。”秦晓宏认为,随着对医疗大数据业务理解的日渐深入,行业对于医疗大数据平台的认知也在逐步升级、完善。早在2015年,原上海市卫生计生委(现上海市卫生健康委)牵头组织编写《上海市医院信息集成平台建设与实践应用指南》,柯林布瑞参与编写工作,秦晓宏受邀成为该书的第一副主编。《指南》首次将业务集成平台与数据平台从概念和任务上区分开来:集成平台的核心是医院服务总线HSB(其他行业称之为企业服务总线ESB),重点解决业务系统之间的接口问题,主要工作是将业务系统按照统一标准实现交互、集成与协同;而数据平台的任务是整合医院所有业务系统的数据,重点解决医院数据的统一管理、标准化、数据治理以及大数据应用等问题。当时,行业的普遍思路是:“数据平台的建设要基于业务集成平台”,以及“不做接口,就无法建设数据平台”。而柯林布瑞很早就明确提出:一家三甲医院往往面对着数百个异构系统、数十个系统厂商,如果大数据平台的建设必须依赖厂商配合、改造接口的方式来获取业务数据,这条路是走不通、走不远的。为此,柯林布瑞提供了新的数据平台建设方案,也即“在不需要对任何业务系统进行接口改造、不影响业务系统正常运转的前提下,从业务系统数据库底层中抽取和同步数据”。《指南》的另一大贡献,是在临床数据中心(CDR)的基础之上,率先在行业中提出并定义了运营数据中心(Operational Data Repository, ODR)与科研数据中心(Research Data Repository, RDR)。按照不同领域模型及数据仓库的不同要求,《指南》将人、财、物的数据归于ODR,将科研单病种库、队列库、生物样本库等数据归于RDR。目前,CDR、ODR、RDR三大数据中心的理念已在行业深入人心。秦晓宏谈道:“这几年我与一些行业专家也有讨论:是否还应有一个教学数据中心(Education Data Repository, EDR)?大部分三级医院都承担着教学任务,在教学过程中需要对数据进行标注,并建设教学案例库。因此,未来医院可能需要建设临床、运营、科研、教学四大核心数据中心。”针对数据中心的分类讨论,其实质是医疗大数据的范围涵盖相当广阔,CDR只是其中的一个部分。更为重要的是,哪怕将视线范围缩小至临床数据部分,此前大部分医院建设的CDR数据元涵盖范围依然非常有限,属于“小CDR”,无法胜任新形势下医疗机构面临的各类数据需求。秦晓宏认为,医院需要对原有的“小CDR”进行重建或重构,原因在于:首先,CDR的建设目标与任务已然发生变化。此前,医院建设CDR的目的主要是为支持患者360视图等应用,需要的数据元大约在2000个左右。一般而言,临床需要展现什么数据,或患者就诊过程中能拿到什么数据,CDR就存放哪些数据。如今,CDR肩负的重任已不可同日而语,过程医疗质控、AI辅助决策、医院管理等都对其提出了新的要求,需要CDR采集临床活动全过程的数据,数据元要求更广(可能有上万个),粒度要求更细。其次,CDR的建设路径、技术方法有了全新提升。秦晓宏认为,大部分医院的CDR都是在建设HSB时的“顺手为之”,业务集成平台能交互哪些数据,就在CDR中存放哪些数据。这样做的问题是,在集成平台上交互的数据是很有限的,而且也无法确保数据整合的有效与完整性。“因此这类CDR里存放的数据只是所有诊疗数据中一个很小的子集,是冰山一角,这对于未来数据的深度挖掘是远远不够的。”因此,出于长远发展的整体考虑,医院重构CDR将势在必行。为了支撑高质量的CDR、ODR、RDR,乃至EDR建设,大数据平台无疑是最佳路径之一。建设医院大数据平台的5个建议那么,医院如何设计规划大数据平台的建设工作?秦晓宏提出了5点建议。首先,要充分考虑如何通过“非接口”方式整合数据。这是柯林布瑞一直以来的主张:大数据平台的建设要摆脱对业务系统的接口依赖。为实现这一目的,柯林布瑞采用变化数据捕获(Change Data Capture,简称CDC)技术,通过连接业务系统的镜像数据库,实时解析数据库日志文件,捕获数据变化,并抽取存量二三十年的业务源数据,再经过清洗、标准化、数据治理后,集成到大数据平台。第二,需要对异构系统的数据结构进行准确识别。不同业务系统的数据结构定义各不相同,在对抽取后的数据进行治理之前,大数据平台需要对不同系统的数据结构进行准确识别,避免张冠李戴等问题发生。这需要大数据平台厂商具有丰富的行业积淀与建设经验,目前柯林布瑞已具备超过500家HIS、EMR、LIS等业务系统厂商的异构数据整合能力。第三,重视整合及大数据分析性能的问题。为解决临床场景中的过程医疗质控、AI辅助决策等问题,大数据平台的数据实时性需要从T+1提升到“秒级”。为此,柯林布瑞的大数据平台采用Hadoop+MPP(Massively Parallel Processing,大规模并行处理)架构,支持多节点并发的快读快写,从底层架构上确保了数据整合过程中的数据快速“落地”,也确保了建成的大数据平台实现亚秒级响应。第四,切实保障数据质量。医院大数据平台不能单纯追求数据“规模大”,而更应追求“质量好”。什么样的数据才能称得上高质量?秦晓宏认为,首先应对“数据质量”进行定义,柯林布瑞基于数据的一致性、规范性、完整性、合理性、关联性5大核心要点,确定数据质量管控规则,并在此基础上形成数据质量规则库,目前已涵盖接近3000项规则。其次,应对数据质量进行有效管控。除了对大数据平台的数据进行质控,还要包含对ODS层(Operational Data Store,操作数据层,或称为贴源数据库,用于直接存放从业务系统中抽取过来的原生态数据)的数据质控。一旦发现数据质量问题,平台可通过贴源数据库倒推至数据产生源头,定位原因,再通过信息科与业务系统厂商沟通优化,通过PDCA机制不断提升数据质量。第五,平台需提供开放的数据订阅开发能力。医院大数据平台建好、用好的一个标志,是医院在不需要依赖平台厂商的前提下,拥有自主的数据订阅开发能力。要实现这一目标,大数据平台首先需要通过若干个子系统或相关组件,从底层提供能力支撑。比如,柯林布瑞通过“元数据管理系统”,帮助医院将所有的数据资产目录盘点清楚,让医院知道有用的数据在哪里,从哪里来、到哪里去,如何分类,彼此之间的关系是什么。其次,柯林布瑞为医院提供可自主扩展的多类型数据订阅服务能力,打造“数据超市”。医院可根据不同类型的数据应用需要,通过微服务等方式自行选择所需数据组装成新的数据集,不仅可构建医院运营管理、三级医院评审、绩效考核等系统,也可以支撑各类数据上报工作。目前,柯林布瑞已帮助100多家大型三级医院构建大数据平台,并在临床科研、单病种质控、公立医院绩效考核、等级医院评审、运营管理、AI辅助决策等多个领域充分发挥大数据的价值,结出了累累硕果。秦晓宏表示:“确保为医院构建高质量的大数据平台,确保为医院、医生、患者创造价值,这是柯林布瑞对自身设定的要求。毕竟,大数据平台的建设没有终点,持续创造价值才是目的。”